11 research outputs found

    Use of Co-occurrences for temporal expressions annotation

    Get PDF
    The annotation or extraction of temporal information from text documents is becoming increasingly important in many natural language processing applications such as text summarization, information retrieval, question answering, etc.. This paper presents an original method for easy recognition of temporal expressions in text documents. The method creates semantically classified temporal patterns, using word co-occurrences obtained from training corpora and a pre-defined seed keywords set, derived from the used language temporal references. A participation on a Portuguese named entity evaluation contest showed promising effectiveness and efficiency results. This approach can be adapted to recognize other type of expressions or languages, within other contexts, by defining the suitable word sets and training corpora.FC

    Modeling Temporal Evidence from External Collections

    Full text link
    Newsworthy events are broadcast through multiple mediums and prompt the crowds to produce comments on social media. In this paper, we propose to leverage on this behavioral dynamics to estimate the most relevant time periods for an event (i.e., query). Recent advances have shown how to improve the estimation of the temporal relevance of such topics. In this approach, we build on two major novelties. First, we mine temporal evidences from hundreds of external sources into topic-based external collections to improve the robustness of the detection of relevant time periods. Second, we propose a formal retrieval model that generalizes the use of the temporal dimension across different aspects of the retrieval process. In particular, we show that temporal evidence of external collections can be used to (i) infer a topic's temporal relevance, (ii) select the query expansion terms, and (iii) re-rank the final results for improved precision. Experiments with TREC Microblog collections show that the proposed time-aware retrieval model makes an effective and extensive use of the temporal dimension to improve search results over the most recent temporal models. Interestingly, we observe a strong correlation between precision and the temporal distribution of retrieved and relevant documents.Comment: To appear in WSDM 201

    Segment-Based Temporal Information Retrieval

    Get PDF
    Tese de doutoramento do Programa de Doutoramento em Ciências e Tecnologias da Informação, apresentada ao Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de CoimbraA Web é, na verdade, uma fonte de informação fundamental utilizada no nosso dia-a-dia. Os motores de busca são essenciais para aceder de forma eficiente à informação disponível na Web. Assim, nos últimos anos tem sido realizada muita investigação, quer no meio académico quer no meio empresarial, para o melhoramento da eficiência e da eficácia dos modelos de Recuperação de Informação na Web. A informação temporal tem um papel importante na compreensão de textos, permitindo a identificação de relações entre entidades, factos ou eventos descritos pelos documentos. Para além disso, a dimensão temporal é também um elemento importante no contexto das necessidades de informação dos utilizadores e, se for utilizada de forma eficaz, pode melhorar o desempenho dos sistemas de Recuperação de Informação. Na verdade, a informação temporal pode ser uma peça chave na maioria das aplicações de sistemas de informação e, consequentemente nas aplicações Web, uma vez que a informação temporal pode ser encontrada em todos os documentos, quer nos metadados, tais como as datas de criação, atualização ou publicação dos documentos, quer sob a forma de referências temporais existentes no conteúdo dos documentos, de forma explícita ou implícita. O reconhecimento de tal informação e a sua colocação num formato reconhecido pelos sistemas é o ponto de partida para que estes sistemas possam utilizá-la no melhoramento de funcionalidades já existentes, ou até mesmo disponibilizando outras funcionalidades. Por isso, a extração de informação temporal dos documentos de texto tem-se tornado cada vez mais importante em muitas aplicações, como por exemplo, processamento de linguagem natural, Recuperação de Informação, sistemas de pergunta resposta, etc. Este trabalho de investigação começou por centrar-se na melhoria da qualidade dos resultados de sistemas de Recuperação de Informação que processam texto em língua Portuguesa, através da incorporação de informação temporal, considerando não só a marca temporal dos documentos, como também as referências temporais extraídas do conteúdo dos documentos. No entanto, o trabalho com a língua Portuguesa foi um dos maiores desafios encontrados devido, principalmente, à falta de recursos, nomeadamente corpora para a realização de testes experimentais e software para o seu processamento. Assim, fomos obrigados a criar os recursos (ferramentas e corpora) que foram sendo necessários ao longo do trabalho. Por este motivo, a investigação não ficou somente focada na Recuperação de Informação, estendendo-se também o desenvolvimento das ferramentas necessárias ao processamento de textos em língua Portuguesa. Nesta tese apresentamos um método original que permite o reconhecimento de expressões temporais em textos escritos em Português, recorrendo a um algoritmo simples e de fácil processamento. O método cria padrões temporais classificados semanticamente utilizando expressões regulares. A sua criação é feita recorrendo à co-ocorrências de palavras obtidas a partir de vários corpora de treino e de um conjunto predefinido de palavras-chave. Palavras essas que são extraídas das referências temporais existentes na língua utilizada, que neste caso é o Português. Por forma a chegarmos a uma representação temporal dos documentos que tem de ser compreendida pelos sistemas, depois do reconhecimento das expressões temporais é necessário realizar a normalização dos valores temporais, sempre que isso seja possível. É proposta uma abordagem para a resolução das expressões temporais que nos testes experimentais realizados numa coleção com documentos em Português atingiu resultados muito promissores. A nossa proposta para o modelo de Recuperação de Informação com dimensão temporal aproveita as descontinuidades temporais do texto para estabelecer uma relação entre as referências temporais, no formato de datas devidamente normalizadas, e os termos do documento. Visto que, as palavras descrevem frequentemente factos e eventos, esta relação permite obter um maior conhecimento dos textos e também uma extração mais eficiente da informação temporal implícita ou explícita. Os índices podem ser enriquecidos com a informação temporal através da segmentação de texto baseada nas descontinuidades temporais, e assim, melhorar a eficácia dos sistemas de Recuperação de Informação. Este trabalho representa um progresso no processamento da língua Portuguesa onde a falta de recursos é notória. As ferramentas de processamento da língua Portuguesa apresentadas foram construídas com o objetivo de serem usadas pelos sistemas Recuperação de Informação com dimensão temporal, embora possam ser aplicadas em outros cenários.The Web is actually the key information source for our daily lives. Search engines are essential to use efficiently the information available at the Web. Therefore, there is an intensive academic and industrial research effort to improve the efficiency and effectiveness of underlying Web information retrieval models. Temporal information plays an important role for text understanding, allowing the identification of relations between entities, facts or events described by documents. Besides that, the time dimension is also an important element in the context of the user’s information need, and if used carefully it can improve the effectiveness of search applications. Indeed, temporal information can be a key piece on most information system applications and, consequently, in Web based applications, since temporal information can be found in every document, either with the metadata, such as the creation or publication date, or in the document content in the form of temporal references, such as dates and time. Recognizing temporal information and putting such information in a machine-readable format is the starting point for these systems to take advantage of it, improving their functionalities and adding new features. So, the extraction of temporal information from text documents is becoming increasingly important in many applications, such as natural language processing, information retrieval, question answering, etc. Initially, this research was concerned with improving the quality of the results, incorporating temporal information in information retrieval systems using Portuguese texts; such information is not reduced to document timestamps, including also the time extracted from the content itself. However, working with the Portuguese language was one of the greatest challenges faced due to the lack of resources, namely corpora and software, which led us to create the instruments needed for the research throughout the course of the work. For this reason, the research was not only focused on document retrieval, but also covers the development of tools to process Portuguese texts. In this thesis, we propose an original method for easy recognition of temporal expressions in Portuguese texts. The method creates semantically classified temporal patterns, based on regular expressions, by using word co-occurrences obtained from corpora and a pre-defined seed keywords set, which were derived from the temporal references of the used language. In order to have a temporal machine-readable representation of documents, after the recognition of temporal expressions it is required to capture the normalized time values, when possible. We propose an approach for the resolution of temporal expressions, achieving promising results in a Portuguese collection. Our proposal for the time-aware model takes advantage of temporal discontinuities in text to establish a relationship between time and document terms. Since words often describe facts and events, this relationship allows a better understanding of the texts and provides a more effective extraction of implicit or explicit temporal information. By using the segmentation of texts based on temporal discontinuities, the indexes can be enriched with temporal information, improving the effectiveness of information retrieval systems, for example. This work represents a step forward for Portuguese language processing, with a notorious lack of tools. Even with target application in time aware information retrieval, the proposed tools for the processing of the Portuguese language can be used in other application scenarios.FCT - SFRH/BD/48583/200

    Temporal analysis of CHAVE collection

    No full text
    Lecture Notes in Computer Science, 9309The importance of temporal information (TI) is increasing in several Information Retrieval (IR) tasks. CHAVE, available from Linguateca’s site, is the only ad hoc IR test collection with Portuguese texts. So, the research question of this work is whether this collection is sufficiently rich to be used in Temporal IR evaluation. The obtained answer was yes. By the analysis of the CHAVE collection, we verified that 22% of the topics and 86% of the documents have at least one chronon. 49% of topics are time-sensitive. Analyzing the relation of topics with documents, relevant documents of time-sensitive topics converge to a specific date(s), while the non-relevant ones are dispersed along the timeline. Finally, we used a peak dates strategy as a time-aware query expansion (QE) process. Experiments showed effectiveness improvements for time-sensitive queries

    It Is the time for Portuguese texts!

    No full text
    In this work, we introduce a software testbed for temporal processing of Portuguese texts, composed by several building blocks: identification, classification and resolution of temporal expressions and temporal text segmentation. Starting from a simple document, we can reach a set of temporally annotated segments, which enables the establishment of relationships between words and time. This tem- porally enriched information is then placed into an Information Retrieval system. This work represents a step forward for Portuguese language processing, with noto- rious lack of tools. Its main novelty is temporal segmentation of texts. Even with target application in temporal aware Information Retrieval, the described software tools can be used in other application scenarios.Fundação para a Ciência e a Tecnologia (FCT

    Towards a segment-based temporal information retrieval model

    No full text
    The extraction of temporal information from text documents is becoming increasingly important in many applications such as natural language processing, information retrieval, question answering, etc.. Indeed, the temporal dimension plays a key role on most of these systems, promoting better performance. Our goal is the definition of a temporal document representation, incorporating the time dimension into information retrieval model to improve the quality of the results. Our approach is based on temporal segmentation of documents. Temporal aware retrieval models may explore a richer temporal document representation, enabled by segmentation. To achieve this, first we must identify temporal expressions and capture, when possible, their normalized time values. Starting from our prior work on temporal expressions recognition, we present in this paper, a resolution tool that achieves promising results in a Portuguese collection. Furthermore, a temporal characterization of the used collection shows enough and suitable information for a meaningful temporal document segmentation.Fundação para a Ciência e a Tecnologia (FCT

    Time-aware focused web crawling

    No full text
    There is a plethora of information inside the Web. Even the top commercial search engines can not download and index all the available information. So, in the recent years, there are several research works on the design and implementation of focused topic crawlers and also on geographic scope crawlers. Despite other areas of information retrieval, research on Web crawling is not using the temporal information extracted from Web pages in the used crawling criteria. Therefore, our research challenge is the use of temporal data extracted from Web pages as the main crawling criteria to satisfy a given temporal focus. The importance of the time dimension is quite amplified when combined with topic or geography, but now we want to study it isolated. The used approach is based on temporal segmentation of Web pages text. It only follows links within segments tagged with dates in the scope of restriction. A precision around 75% was achieved in preliminary experimental results.(undefined

    Rastreio de doença de Fabry em doentes com não compactação do ventrículo esquerdo

    No full text
    It is unclear whether left ventricular noncompaction (LVNC) is a distinct cardiomyopathy or a morphologic manifestation of different cardiomyopathies. We previously reported a case of LVNC in a Fabry disease (FD) patient, but it remains to be clarified whether LVNC is a cardiac manifestation of FD, a coincidental finding or an overdiagnosis, which has major therapeutic implications. This study aims to determine the prevalence of FD among patients with LVNC.Não está esclarecido se a não compactação do ventrículo esquerdo (NCVE) é uma miocardiopatia distinta ou uma manifestação morfológica de várias miocardiopatias. Nós reportamos previamente um caso de NCVE num doente com doença de Fabry (DF), mas permanece por esclarecer se a NCVE é uma manifestação cardíaca de DF, um achado coincidente ou um sobrediagnóstico, o que tem importantes implicações terapêuticas. Este estudo pretende determinar a prevalência de DF em doentes com NCVE.Funding Agency Shire Human Genetic Therapies, Inc.info:eu-repo/semantics/publishedVersio
    corecore